干货分享:如何在金融行业应用文档结构化?
The following article is from 数据实战派 Author 杨慧宇
导读
市场竞争
金融行业虽然在大众印象中是暴利行业,但实际上行业年均复合增长率已经呈现出下降的趋势,并且面临着蚂蚁集团、微信支付、陆金所等互联网金融公司所带来的影响和竞争。
人力成本
中国的人口红利在逐渐消失,劳动力成本也在不断上升,尤其像新时代的 90 后员工不愿意天天进行重复性的工作,希望能够在工作中体现出自己独一无二的价值,这一点实际上也是很大的痛点。
监管趋严
金融行业领域监管越来越严格。证监会、交易所都在不断地发布新的监管规则,而金融企业内部的合规、风控这些机构就要随之进行更新,这些都离不开信息技术的支持。随着监管的越来越严格,企业内部所造成的文书工作的增加也会带来很多工作上的负担,比如要进行很多信息上的披露,上市公司要发布各种各样事件的曝光,这些都会给大家带来工作上的负担。但是因为文件越来越多,人工处理文本的能力,却无法得到相应的提升,这样就会造成工作上的疏忽,给工作带来潜在的风险。
技术进步
现在券商,银行,保险公司等都希望利用人工智能、云计算、大数据、机器人和自动化等技术强化金融行业的数字化能力,并要考量以前的非结构化数据资产能不能发挥应有的价值。
文档密集型金融行业是文档密集型的行业,不管是券商、银行、保险、基金、私募,这些企业都有大量的文书处理,比如像招股书,债券募集书,这些都是投行业务等行业中会涉及到的。上市企业要提供他的派息公告,股权质押公告,重组公告,审计的会计师事务所要提供相应的审计报告,基金公司会提供基金合同,还有银行会处理各种各样函证,这些都是各种各样的文档。
文档格式繁杂文档格式繁杂,而且往往都是非结构化的文档,比如 word、pdf 与 pdf 的电子版、扫描件,还有图片格式 jpg 这样的文件等等。
文档处理容错性低这是金融行业的特征,很强的监管性导致了该行业对于文档处理的容错性非常低。轻则可能闹出乌龙事件,严重时监管机构可能会对他进行警告,甚至做出罚款,更为严重时,对于券商而言可能会影响客户公司的上市。这些都是文档处理容错性低的体现。
关于金融文档解析的算法落地
先定位到这样的表格,要框出的表格的大致范围,尤其是对于无框表格来说,没有线条这些信息,那只能通过诸如目标检测这类的 CV 算法,才能够定位到这样的表格:
2做线条识别,刚刚你看到有的表格是有线的,有的表格是缺线的,有的表格甚至一条线都没有。这对于线条识别来讲就提出了很高的要求。那有了表格的位置,有了线条,那这时候就可以构造出大致的单元格,注意,还要考虑到是不是有单元格要进行合并。
对于无线来讲,这时候单元格的合并就比较困难,可能要利用 NLP 获取的信息来判断的单元格上下或者是左右,是否是表达连续的内容。
金融文档的信息抽取算法概述
达观数据在金融结构化数据领域的应用场景
企业贷款信息的录入
企业贷款资料审核
国际业务资料录入与审核
债券募集书,招股说明书的审核
相关内容
深圳站重磅活动,点击图片了解活动详情